Contribuições da Campanha Presidencial America em 2016, estado do TX por Daniel Teobaldo

Introdução

Para este projeto escolhi uma das bases de dados sugeridas pela Udacity: Financiamento da Campanha Presidencial dos EUA de 2016.

A idéia inicial era de se fazer a analise do estado de NY, no entanto havia uma discrepancia muito grande nas contibuições uma vez que o comite “HILLARY VICTORY FUND” foi responsável por 45% do valor financiado referente a este estado em apenas 23 das 649.460 contribuições registradas, sendo todas elas com valores acima de U$ 100.000. Este foi o único contribuinte que realizou contribuições acima deste valor. A maior contribuição abaixo deste valor de U$ 100.000 foi de U$ 11.816,25. Poderia ser feita uma remoção dos outliers, porém esta ação traria um dataset que não representa o conjunto de dados do estado.

#Verifica a distribuição dos valores de controbuições do dataset
summary(USACampaign$contb_receipt_amt)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##   -10100       15       27      264      100 12777706
USACampaign$contb_receipt_amt <- abs(USACampaign$contb_receipt_amt)
USACampaign$contb_range <- cut(USACampaign$contb_receipt_amt, c(0,100,500,2000,50000,max(USACampaign$contb_receipt_amt)))

#Verifica contribuintes com contribuições superiores a U$ 100.000
USACampaign[USACampaign$contb_receipt_amt >= 100000,]$contbr_nm
##  [1] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
##  [3] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
##  [5] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
##  [7] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
##  [9] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [11] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [13] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [15] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [17] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [19] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [21] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [23] HILLARY VICTORY FUND - UNITEMIZED
## 119407 Levels:  BLACKMORE, ANDI POTAMKIN ... ZYWICZYNSKI, JERRY MR.
#Valor máximo abaixo de U$ 100.000
max(USACampaign[USACampaign$contb_receipt_amt < 100000,]$contb_receipt_amt)
## [1] 11816.25
sum(USACampaign[USACampaign$contbr_nm == "HILLARY VICTORY FUND - UNITEMIZED",]$contb_receipt_amt)/sum(USACampaign$contb_receipt_amt)*100
## [1] 45.12158
dim(USACampaign[USACampaign$contbr_nm == "HILLARY VICTORY FUND - UNITEMIZED",])
## [1] 23 21
USACampaign$hillary_comitte <- ifelse(USACampaign$contbr_nm == "HILLARY VICTORY FUND - UNITEMIZED", "Y", "N")

Quando comparamos as contribuições do contribuinte HILLARY VICTORY FUND - UNITEMIZED e os demais contribuintes, vemos que o valor total das contribuições são próximos, porém as quantidade de contribuições da comite da Hillary são significamente menores.

Abaixo uma comparação entre a quantidade de contribuições realizadas por faixa de valor versus o total arrecadado.

É possível notar também o impacto das contribuições de valores elevados quando comparamos os quartils dos valores com e sem estas contribuições, para cada candidato.

Esta discrepancia prejudicaria a avaliação das contribuições entre os candidatos e restringiria as analises dos dados. Desta forma optei por fazer a analise das contribuições feitas pelos eleitores do estado do TX, que traz uma distribuição mais homogenea nas contribuições.


Analise do dataset do estado do Texas

Inicamos aqui a análise do dataset do estado do Texas (TX). Algumas verificações simples nesta base de dados nos aponta necessidade de tratamento das informações. Este tratamento será feito em um script a parte, em python tratarDados.py. Maiores detalhes sobre este tratamentos pode ser visualizado no arquivo Tratamento de dados.md.

## [1] 12084    19
## [1] 24 19
## 
##        DALLA       DALLAA       DALLAD      DALLALS       DALLAS 
##            1            1            4            1        40656 
## DALLAS TEXAS    DALLAS TX      DALLAS,   DALLAS, TX      DALLAS9 
##            2            1            1            1            1 
##     DALLASTX      DALLASV      DALLLAS 
##            1            2            1
## [1] 16600
##                  RETIRED                                      NOT EMPLOYED 
##                   142978                    29745                    24405 
##                   LAWYER            SELF-EMPLOYED                  TEACHER 
##                    17517                    13267                    13119 
##                HOMEMAKER                 ENGINEER                PHYSICIAN 
##                    11325                     9016                     8817 
##                    SALES                    NURSE               CONSULTANT 
##                     6943                     5613                     5519 
##              REAL ESTATE                  MANAGER               ACCOUNTANT 
##                     5327                     4851                     4054 
##       SOFTWARE DEVELOPER                      CEO                PRESIDENT 
##                     2896                     2750                     2386 
##        SOFTWARE ENGINEER                       RN                  STUDENT 
##                     2374                     2372                     2357 
##                      CPA                EXECUTIVE                 EDUCATOR 
##                     2081                     2008                     1866 
##          PROJECT MANAGER                 DIRECTOR                   WRITER 
##                     1710                     1472                     1425 
##                  RANCHER             TRUCK DRIVER                MARKETING 
##                     1409                     1403                     1279 
##           OFFICE MANAGER                INSURANCE                    PILOT 
##                     1262                     1224                     1167 
##               PHARMACIST                   ARTIST            ADMINISTRATOR 
##                     1118                     1096                     1049 
##             PSYCHOLOGIST                  ANALYST                GEOLOGIST 
##                     1049                     1034                     1030 
##                 INVESTOR             CONSTRUCTION                   FARMER 
##                     1021                     1005                      977 
##               CONTRACTOR                LIBRARIAN                PARALEGAL 
##                      970                      966                      945 
##                  REFUSED                      CFO            SOCIAL WORKER 
##                      922                      901                      880 
##           VICE PRESIDENT                ARCHITECT                  DENTIST 
##                      859                      857                      843 
##               MANAGEMENT                 DISABLED                       IT 
##                      806                      805                      777 
##                  FINANCE                   DRIVER               BOOKKEEPER 
##                      754                      739                      720 
##                   PASTOR                 MUSICIAN              INVESTMENTS 
##                      716                      715                      704 
##              ELECTRICIAN                   BANKER            SALES MANAGER 
##                      665                      659                      659 
##               IT MANAGER        FINANCIAL ADVISOR                 DESIGNER 
##                      652                      641                      640 
##                 MINISTER             VETERINARIAN             PHOTOGRAPHER 
##                      616                      615                      605 
##          GENERAL MANAGER          PSYCHOTHERAPIST         FLIGHT ATTENDANT 
##                      573                      573                      572 
##             GEOPHYSICIST         GRAPHIC DESIGNER                SECRETARY 
##                      572                      569                      567 
##                SCIENTIST               TECHNICIAN             ENTREPRENEUR 
##                      564                      534                      523 
##         PROPERTY MANAGER         BUSINESS ANALYST               SUPERVISOR 
##                      514                      513                      499 
##                   RETAIL                EDUCATION                    CLERK 
##                      484                      480                      477 
## ADMINISTRATIVE ASSISTANT          LEGAL ASSISTANT                 BUSINESS 
##                      471                      470                      469 
##       PHYSICAL THERAPIST      ELECTRICAL ENGINEER          HUMAN RESOURCES 
##                      468                      456                      456 
##                  LANDMAN                  BANKING                 SOFTWARE 
##                      454                      449                      447 
##       EXECUTIVE DIRECTOR      EXECUTIVE ASSISTANT          ACCOUNT MANAGER 
##                      440                      437                      429 
##     SALES REPRESENTATIVE                  PARTNER                  (Other) 
##                      418                      403                   168005 
##                     NA's 
##                      139
##         Min.      1st Qu.       Median         Mean      3rd Qu. 
## "2013-10-21" "2016-02-06" "2016-04-29" "2016-04-27" "2016-08-12" 
##         Max. 
## "2016-12-31"
## [1] 548372     29
##  [1] "cmte_id"                "cand_id"               
##  [3] "cand_nm"                "contbr_nm"             
##  [5] "contbr_city"            "contbr_st"             
##  [7] "contbr_zip"             "contbr_employer"       
##  [9] "contbr_occupation"      "contb_receipt_amt"     
## [11] "contb_receipt_dt"       "receipt_desc"          
## [13] "memo_cd"                "memo_text"             
## [15] "form_tp"                "file_num"              
## [17] "tran_id"                "election_tp"           
## [19] "X"                      "city"                  
## [21] "lon"                    "lat"                   
## [23] "party"                  "cmte_nm"               
## [25] "cmte_dsgn"              "contb_receipt_dt_day"  
## [27] "contb_receipt_dt_month" "contb_receipt_dt_year" 
## [29] "contb_receipt_date"
## 'data.frame':    548372 obs. of  29 variables:
##  $ cmte_id               : Factor w/ 26 levels "C00458844","C00496034",..: 7 16 16 8 7 7 16 16 7 16 ...
##  $ cand_id               : Factor w/ 25 levels "P00003392","P20002671",..: 1 23 23 12 1 1 23 23 1 23 ...
##  $ cand_nm               : Factor w/ 25 levels "Bush, Jeb","Carson, Benjamin S.",..: 4 23 23 20 4 4 23 23 4 23 ...
##  $ contbr_nm             : chr  "MILLARD, SUSAN C." "SELLERS, CHRISTINE" "SELLERS, DAVID" "LEONE, MICHELLE" ...
##  $ contbr_city           : chr  "CORPUS CHRISTI" "FORT WORTH" "WILLIS" "NORTH RICHLAND HILLS" ...
##  $ contbr_st             : chr  "TX" "TX" "TX" "TX" ...
##  $ contbr_zip            : chr  "784112213" "76108" "77318" "761826749" ...
##  $ contbr_employer       : chr  "N/A" "BAYLOR HEALTHCARE SYSTEM" "RETIRED" "NOT EMPLOYED" ...
##  $ contbr_occupation     : Factor w/ 17309 levels ""," COUNSELOR",..: 13427 10139 13427 10106 14283 13859 1 1 11331 7205 ...
##  $ contb_receipt_amt     : num  37.1 127.1 80 15 50 ...
##  $ contb_receipt_dt      : chr  "16-APR-16" "28-SEP-16" "01-DEC-16" "06-MAR-16" ...
##  $ receipt_desc          : chr  "" "" "" "" ...
##  $ memo_cd               : logi  NA NA NA NA NA NA ...
##  $ memo_text             : logi  NA NA NA NA NA NA ...
##  $ form_tp               : chr  "SA18" "SA18" "SA18" "SA17A" ...
##  $ file_num              : int  1091718 1146165 1146165 1077404 1091718 1091718 1146165 1146165 1091718 1146165 ...
##  $ tran_id               : chr  "C4725643" "SA18.90357" "SA18.120784" "VPF7BKZGYE4" ...
##  $ election_tp           : chr  "P2016" "G2016" "G2016" "P2016" ...
##  $ X                     : logi  NA NA NA NA NA NA ...
##  $ city                  : chr  "CORPUS CHRISTI" "FORT WORTH" "WILLIS" "NORTH RICHLAND HILLS" ...
##  $ lon                   : num  -97.4 -97.3 -95.5 -97.2 -98.5 ...
##  $ lat                   : num  27.8 32.8 30.4 32.9 29.4 ...
##  $ party                 : chr  "DEM" "REP" "REP" "DEM" ...
##  $ cmte_nm               : chr  "HILLARY FOR AMERICA" "DONALD J. TRUMP FOR PRESIDENT, INC." "DONALD J. TRUMP FOR PRESIDENT, INC." "BERNIE 2016" ...
##  $ cmte_dsgn             : chr  "P" "P" "P" "P" ...
##  $ contb_receipt_dt_day  : int  16 28 1 6 9 4 29 30 21 4 ...
##  $ contb_receipt_dt_month: Ord.factor w/ 12 levels "JAN"<"FEB"<"MAR"<..: 4 9 12 3 4 4 11 11 4 10 ...
##  $ contb_receipt_dt_year : int  16 16 16 16 16 16 16 16 16 16 ...
##  $ contb_receipt_date    : Date, format: "2016-04-16" "2016-09-28" ...
##       cmte_id            cand_id                            cand_nm      
##  C00575795:203928   P00003392:203928   Clinton, Hillary Rodham  :203928  
##  C00574624:138799   P60006111:138799   Cruz, Rafael Edward 'Ted':138799  
##  C00577130: 79955   P60007168: 79955   Sanders, Bernard         : 79955  
##  C00580100: 77916   P80001571: 77916   Trump, Donald J.         : 77916  
##  C00573519: 23694   P60005915: 23694   Carson, Benjamin S.      : 23694  
##  C00458844:  8984   P60006723:  8984   Rubio, Marco             :  8984  
##  (Other)  : 15096   (Other)  : 15096   (Other)                  : 15096  
##   contbr_nm         contbr_city         contbr_st        
##  Length:548372      Length:548372      Length:548372     
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##                                                          
##                                                          
##                                                          
##                                                          
##   contbr_zip        contbr_employer        contbr_occupation 
##  Length:548372      Length:548372      RETIRED      :142978  
##  Class :character   Class :character                : 29745  
##  Mode  :character   Mode  :character   NOT EMPLOYED : 24405  
##                                        LAWYER       : 17517  
##                                        SELF-EMPLOYED: 13267  
##                                        (Other)      :320321  
##                                        NA's         :   139  
##  contb_receipt_amt  contb_receipt_dt   receipt_desc       memo_cd       
##  Min.   :    0.01   Length:548372      Length:548372      Mode:logical  
##  1st Qu.:   25.00   Class :character   Class :character   NA's:548372   
##  Median :   40.00   Mode  :character   Mode  :character                 
##  Mean   :  175.02                                                       
##  3rd Qu.:  100.00                                                       
##  Max.   :16600.00                                                       
##                                                                         
##  memo_text        form_tp             file_num         tran_id         
##  Mode:logical   Length:548372      Min.   :1003942   Length:548372     
##  NA's:548372    Class :character   1st Qu.:1077404   Class :character  
##                 Mode  :character   Median :1096256   Mode  :character  
##                                    Mean   :1097493                     
##                                    3rd Qu.:1133832                     
##                                    Max.   :1146285                     
##                                                                        
##  election_tp           X               city                lon         
##  Length:548372      Mode:logical   Length:548372      Min.   :-124.03  
##  Class :character   NA's:548372    Class :character   1st Qu.: -97.74  
##  Mode  :character                  Mode  :character   Median : -96.93  
##                                                       Mean   : -97.11  
##                                                       3rd Qu.: -95.47  
##                                                       Max.   : -71.06  
##                                                       NA's   :613      
##       lat           party             cmte_nm           cmte_dsgn        
##  Min.   :24.66   Length:548372      Length:548372      Length:548372     
##  1st Qu.:29.76   Class :character   Class :character   Class :character  
##  Median :30.26   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :30.99                                                           
##  3rd Qu.:32.76                                                           
##  Max.   :46.88                                                           
##  NA's   :613                                                             
##  contb_receipt_dt_day contb_receipt_dt_month contb_receipt_dt_year
##  Min.   : 1.00        OCT    : 68919         Min.   :13.00        
##  1st Qu.: 8.00        JUL    : 57731         1st Qu.:16.00        
##  Median :16.00        MAR    : 56585         Median :16.00        
##  Mean   :16.36        SEP    : 52846         Mean   :15.81        
##  3rd Qu.:25.00        APR    : 50181         3rd Qu.:16.00        
##  Max.   :31.00        AUG    : 49822         Max.   :16.00        
##                       (Other):212288                              
##  contb_receipt_date  
##  Min.   :2013-10-21  
##  1st Qu.:2016-02-06  
##  Median :2016-04-29  
##  Mean   :2016-04-27  
##  3rd Qu.:2016-08-12  
##  Max.   :2016-12-31  
## 

O dataset tratado contem 548.396 observações com 28 variaveis. O dataset original (sem tratamento) contém 18 variáveis.

Seção de Gráficos Univariados

É importante realizarmos uma analise sobre a distribuição das contribuições entre os candidatos. Nesta analise já classifiquei os candidatos por partido para identificação, com o intuíto de entender melhor como é a divisão entre as legendas. Para a difinição do partido, consideramos a classificação registrada na base de dados de candidatos obtida no site da FEC.

Nesta análise percebemos que a grande maioria das contribuições se concentram nos 4 primeiros candidatos, mas é importante notar que quando ordenamos por valor total arrecadado, existe um inversão nas posições. Devido a essa inversão farei uma análise focada nos 7 candidatos com maior volume arrecada, no lugar de 5 candidatos que era a idéia inicial.

Uma analise mais detalhada desse aspecto será realizada na seção de gráficos bivariados.

Como esperado, nota-se que a maior parte das contribuições se destinam aos candidatos democratas (DEM) e republicanos (REP), desta forma vamos considerar apenas estes 2 partidos nas analises. É importante percebermos pelo Boxplot que a as contribuições para os candidatos republicanos, no geral, possuem um valor unitário maior que as doações feitas aos democratas. Isto deve trazer um impacto no valor total arrecadado por partido, apesar de ambos possuirem qauntidades de contribuições semelhantes. Esta é uma analise a ser feita na seção de Gráficos Bivariados.

Na analise a seguir procurei fazer uma avaliação identificando como se foram realizadas as contribuições ao longo do período. Iniciei a analise verificando a distribuição das doações por ano e, em seguida, realizei a analise por mês.

Por fim, foquei no periodo de 2016, que é onde ocorreram a maior quantidade de doações.

##         Min.      1st Qu.       Median         Mean      3rd Qu. 
## "2013-10-21" "2016-02-06" "2016-04-29" "2016-04-27" "2016-08-12" 
##         Max. 
## "2016-12-31"

Na sequencia analisei a distribuição das doações por quantidade. Nesta analiíse foi possível perceber como as contribuições de menores valores são as mais frequentes. Esse já era um comportamento esperado um vez que muitos eleitores não possuem muitos recursos para doar mas procuram ajudar com uma quantidade que esta ao seu alcance.

Para uma analise de um espectro maior de valores, reduzi o binwidth em 10x. Na sequência apliqei uma escala logaritima para exibir melhor o valores com menos contribuuções e reduzi o limite do eixo x com o objetivo de focar nos valores de contribuições mais frequentes, chegando no limite de um quartil de 95%.

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##     0.01    25.00    40.00   175.02   100.00 16600.00

## 95% 
## 700

Decidi classificar os valores de contribuição considerando as seguintes faixas de valores: - Até 100,00 - 100,01 a 500,00 - 500,01 a 2.000,00 - Acima de 2.000,00

## # A tibble: 30 x 2
##           city count
##          <chr> <int>
##  1     HOUSTON 71294
##  2      AUSTIN 57745
##  3      DALLAS 41118
##  4 SAN ANTONIO 30240
##  5  FORT WORTH 16307
##  6      SPRING 12167
##  7       PLANO  9603
##  8     EL PASO  7763
##  9   ARLINGTON  7324
## 10        KATY  6063
## # ... with 20 more rows

## # A tibble: 10 x 2
##    contbr_occupation  count
##               <fctr>  <int>
##  1           RETIRED 142978
##  2                    29745
##  3      NOT EMPLOYED  24405
##  4            LAWYER  17517
##  5     SELF-EMPLOYED  13267
##  6           TEACHER  13119
##  7         HOMEMAKER  11325
##  8          ENGINEER   9016
##  9         PHYSICIAN   8817
## 10             SALES   6943

Análise Univariada

Qual é a estrutura do conjunto de dados?

O conjunto de dados possui registros de contribuições para o estado de TX, com 28 atributos no arquivo tratado e 18 no arquivo original.

Quais são os principais atributos de interesse deste conjunto de dados?

Os principais atributos deste conjunto de dados são os candidatos (cand_nm) e os valores das contribuições (contb_receipt_amt).

Quais outros atributos você acha que podem lhe auxiliar na investigação destes atributos de interesse?

Atributos realcionados a origem das contribuições serão muito úteis nesta analise. Entre elas estão:

  • Nome do comite
  • Nome do contribuinte
  • Data de contribuição
  • Ocupação do contribuinte
  • Cidade do contribuinte

Além destas existem variáveis importantes como o partido do candidato.

Você criou novas variáveis a partir dos atributos existentes no conjunto de dados?

Sim. Foram criados as seguintes variaveis: - A partir da data, criei colunas com os componentes da data de contribuição (dia, mês e ano) - Foram incorporados dados do dataset de CEP (zipcode): cidade, longitude e latitude - Foi adicionada uma coluna com faixas dos valores doados. - A partir da base de dados dos candidatos (obtido na FEC), foi incorporado o partido do candidato - A partir da base de dados dos comites (obtido na FEC), foi incorporado o nome do comite

Dos atributos investigados, distribuições incomuns foram encontradas? Você aplicou operações nos dados para limpá-los, ajustá-los ou mudar a forma dos dados? Se sim, por quê?

Foram realizados tratamentos nos valores de contribuição. Para os valores negativos, foi considerado o valor absoluto. As contribuições zeradas foram eliminadas.

As datas de contribuição carregadas originalmente como caracter, foram convertidas para Date e quebrada em colunas separadas para dia, mes e ano.

Conforme apresentado na seção de tratamento de dados, fiz uma ajuste nos nomes das cidades para eleminar as cidades iguais registradas com grafias diferentes. O mesmo tratamento foi realizado para a ocupação dos contribuintes.

Todos os tratamentos foram realizados num script python a parte (tratarDados.py).

Seção de Gráficos Bivariados

Aqui fiz uma analise das distriuição dos valores ao longo do tempo. No primeiro gráfico foi feita uma analise mais ampla por todo o período compreendido no dataset. No segundo reduzi o faixa de valores para o ano de 2016 e foi considerada as contribuições realizadas dentro de 99% da amostragem.

## `geom_smooth()` using method = 'gam'

## `geom_smooth()` using method = 'gam'
## Warning: Removed 101744 rows containing non-finite values (stat_smooth).
## Warning: Removed 104480 rows containing missing values (geom_point).

Nesta analise podemos perceber a presença de faixas horizontais bem definidas para os valores doados com mais frequncias. Estes normalmente ão valores redodndos. Uma faixa bem definida é a 2700 dolares, que era o limite máximo permitido para pessoas físicas Limites de contribuições - FEC. Considerando eleições primárias e geral, é possível uma doação de $5.400,00 (2.700 para cada).

Estas mesmas faixas podem ser percebidas quando analisamos a os valores de contribuição por candidato, como visto abaixo.

## Warning: Removed 7211 rows containing missing values (geom_point).

Nesta sequencia de gráficos vemos as relações entre candidatos e valores de contribuição. Ao contrário do que normalmente seria esperado, o candidato com mais contribuições não é o mesmo com maior valor arrecadado. O candidato Jeb Bush, apesar de possuir menos de 5% das contribuições de Bernard Sanders, conseguiu arrecadar um pouco que o este. No caso especial de Jeb Bush, isto pode ter relação com o fato do Texas ser o seu estado Natal, além da sua relação com os outros 2 ex-presidentes Bush (pai e irmão).

## # A tibble: 7 x 4
##                     cand_nm   qtde valor_total valor_medio
##                      <fctr>  <int>       <dbl>       <dbl>
## 1                 Bush, Jeb   3578   4523399.1   1264.2256
## 2       Carson, Benjamin S.  23694   3830272.6    161.6558
## 3  Christie, Christopher J.    198    295205.0   1490.9343
## 4   Clinton, Hillary Rodham 203928  23341676.1    114.4604
## 5 Cruz, Rafael Edward 'Ted' 138799  33971577.3    244.7538
## 6            Fiorina, Carly   2541    682558.6    268.6181
## 7      Gilmore, James S III      5     11800.0   2360.0000

Um comportamento semelhante pode ser observado quando analisamos os 2 principais partidos (Democratas e Republicanos). Embora os democratas tenham uma quantidade de contribuições maior do que a dos republicanos (feitas principalmente em nome de Hillary Cinton), o valor arreacadado do segundo é quase o dobro do primeiro.

Na distribuição das doações entre as cidades do estado do TX, temos Austin em segundo, atrás apenas da cidade de Houston, porém quando analisamos o valor total, Dallas vem em segundo, deixando Austin em terceiro. Isto poderia estar relacionada a renda media de cada cidade mas sem os dados de rendimentos não é possível esta analise.

Por fim fiz uma analise da distribuição geográfica das doações com base nas informações de longitude (lon) e latitude (lat) recolhidas na base de dados de zipcode.

Como esperado, a maioria das doação estão concentradas na parte leste do estado, onde se localizam as cidades com maior quantidade de contribuições: Houston, Austin e Dallas.

## Warning: use rgdal::readOGR or sf::st_read

## Warning: use rgdal::readOGR or sf::st_read
## Object of class SpatialPolygonsDataFrame
## Coordinates:
##          min       max
## x -106.64565 -93.50804
## y   25.83716  36.50070
## Is projected: NA 
## proj4string : [NA]
## Data attributes:
##  STATEFP     COUNTYFP      COUSUBFP       COUSUBNS          GEOID    
##  48:862   027    :  9   90005  :  1   01938476:  1   4800190650:  1  
##           309    :  9   90010  :  1   01938477:  1   4800191205:  1  
##           085    :  8   90015  :  1   01938478:  1   4800191390:  1  
##           099    :  8   90017  :  1   01938479:  1   4800192615:  1  
##           215    :  8   90020  :  1   01938480:  1   4800192945:  1  
##           277    :  8   90025  :  1   01938481:  1   4800390085:  1  
##           (Other):812   (Other):856   (Other) :856   (Other)   :856  
##                NAME                     NAMELSAD   LSAD     CLASSFP 
##  Cedar Creek Lake:  3   Cedar Creek Lake CCD:  3   22:862   Z5:862  
##  Amarillo        :  2   Amarillo CCD        :  2                    
##  Dalhart         :  2   Dalhart CCD         :  2                    
##  Fort Hood       :  2   Fort Hood CCD       :  2                    
##  Gladewater      :  2   Gladewater CCD      :  2                    
##  Kilgore         :  2   Kilgore CCD         :  2                    
##  (Other)         :849   (Other)             :849                    
##    MTFCC     CNECTAFP   NECTAFP    NCTADVFP   FUNCSTAT     ALAND          
##  G4040:862   NA's:862   NA's:862   NA's:862   S:862    Min.   :2.939e+07  
##                                                        1st Qu.:3.446e+08  
##                                                        Median :5.289e+08  
##                                                        Mean   :7.850e+08  
##                                                        3rd Qu.:9.027e+08  
##                                                        Max.   :9.519e+09  
##                                                                           
##      AWATER                 INTPTLAT           INTPTLON  
##  Min.   :0.000e+00   +25.9648763:  1   -093.7054610:  1  
##  1st Qu.:1.255e+06   +26.1029227:  1   -093.7135949:  1  
##  Median :3.961e+06   +26.1388555:  1   -093.7757556:  1  
##  Mean   :2.206e+07   +26.1503878:  1   -093.7858765:  1  
##  3rd Qu.:1.177e+07   +26.1710987:  1   -093.7971206:  1  
##  Max.   :1.262e+09   +26.1883773:  1   -093.8170037:  1  
##                      (Other)    :856   (Other)     :856

Análise Bivariada

Discuta sobre alguns dos relacionamentos observados nesta parte da investigação. Como os atributos de interesse variaram no conjunto de dados?

Você observou algum relacionamento interessante entre os outros atributos (os que não são de interesse)?

Qual foi o relacionamento mais forte encontrado?

Seção de Gráficos Multivariados

## Warning: Removed 113 rows containing missing values (geom_point).

Análise Multivariada

Discuta sobre os relacionamentos observados nesta parte da investigação. Quais atributos que fortaleceram os demais na observação das variáveis de interesse?

Interações surpreendentes e/ou interessantes foram encontradas entre os atributos?

OPCIONAL: Modelos foram criados usando este conjunto de dados? Discuta sobre os pontos fortes e as limitações do seu modelo.


Gráficos Finais e Sumário

Primeiro Gráfico

Descrição do Primeiro Gráfico

Segundo Gráfico

Descrição do Segundo Gráfico

Terceiro Gráfico

Descrição do Terceiro Gráfico


Reflexão

No início da análise dos dados tinha em mente fazer utilização apenas dos dados disponíveis no dataset. A partir dele comecei a fazer a análise das distribuição de valores do estado de NY. Neste ponto me deparei com as questões citadas no início do documento, que me fizeram mudar minha análise para os dados de outro esttado, o Texas.

Durante as primeiras análises percebi que muitos dados necessitavam de trartamento e então resolvi preparar um script em Python para realizar alguns ajustes. Outra observação feita com inicio do trabalho, foi que a necessidade de mais dados para análise e exclusão de algumas informações desnecessárias no dataset.

DIFICULDADE COM MAPA

Referências

Abaixo o link para referências usadas para este trabalho